RDMA超过融合以太网(ROCE),由于其与常规以太网的织物的兼容性,对数据中心网络具有重要的吸引力。但是,RDMA协议仅在(几乎)无损网络上有效,这强调了拥塞控制对ROCE网络的重要作用。不幸的是,基于优先流量控制(PFC)的本地ROCE拥塞控制方案遭受了许多缺点,例如不公平,线路阻滞和僵局。因此,近年来,已经提出许多计划为ROCE网络提供额外的拥塞控制,以最大程度地减少PFC缺点。但是,这些方案是针对一般数据中心环境提出的。与使用商品硬件构建并运行通用工作负载的一般数据中心相反,高性能分布式培训平台部署高端加速器和网络组件,并专门使用集体(全能,全能,全能)运行培训工作负载)通信库进行通信。此外,这些平台通常具有一个私人网络,将其通信流量与其他数据中心流量分开。可扩展的拓扑意识集体算法固有地设计旨在避免造成的模式并最佳地平衡流量。这些独特的功能需要重新审视先前提出的通用数据中心环境的拥塞控制方案。在本文中,我们彻底分析了在分布式培训平台上运行时的一些SOTA ROCE拥塞控制方案与PFC。我们的结果表明,先前提出的ROCE拥塞控制计划对培训工作负载的端到端表现几乎没有影响,这激发了根据分布式培训平台和分布式培训平台和特征的设计优化但低空的拥塞控制计划的必要性工作负载。
translated by 谷歌翻译